How do we see the world?
Say it in Matemathics
Say it in Matemathics
![An RStudio window]()
- Dari grafik ini, kita punya persamaan y = 0 + 2x.
Dalam regresi, garis bisa ditulis dalam bentuk persamaan y = θ₀ + θ₁x, di mana:
θ₀ (theta nol) adalah intercept, yaitu titik potong garis dengan sumbu y (nilai y saat x = 0).
θ₁ (theta satu) adalah slope, yaitu kemiringan garis yang menunjukkan seberapa tajam garis naik atau turun.
![An RStudio window]()
- Dari persamaan y = 0 + 2x, kita punya θ₁ = 2.
![An RStudio window]()
- Dari persamaan y = 0 + 2x, kita punya θ₀ = 0.
Linear Regression
Contoh sebelumnya secara sederhana menggambarkan ide dasar dari regresi linear. Yaitu, berdasarkan data yang kita punya, kita ingin memprediksi kenaikan berat badan berdasarkan jumlah kue yang dimakan, dengan mencari garis yang paling pas (fit) terhadap data tersebut.
Contoh Kasus
| 2104 |
400 |
| 1600 |
330 |
| 2400 |
369 |
| 1416 |
232 |
| 3000 |
540 |
Jika ada rumah dengan luas 558 m², berapa kira-kira harganya?
Plot Data
Plot Data
![An RStudio window]()
- Kita dapat memprediksi nilai \(\hat{y}\) (prediksi) berdasarkan nilai \(\hat{x}\) (input) yang belum terlihat oleh model sebelumnya.
Plot Data
![An RStudio window]()
- Kita dapat mencari sebuah garis (model) yang mewakili data, dan kemudian menggunakan garis tersebut untuk memprediksi nilai \(\hat{y}\) berdasarkan nilai \(\hat{x}\) (input).
Plot Data
Linear Regression
![An RStudio window]()
- Model yang terlalu mengikuti data (overfitting) akan sulit untuk menggeneralisasi ke data lain.
Linear Regression
Linear Regression
Linear Regression
Linear Regression
![An RStudio window]()
- Garis yang mana yang harus kita pilih? Apa kriteria garis/model yang baik?
Linear Regression
![An RStudio window]()
- Secara informal, garis yang baik adalah garis yang secara umum dekat dengan semua titik data.
Mengukur Kedekatan Garis
Untuk menunjukkan seberapa dekat sebuah garis dengan data, kita dapat mengukur jarak antara titik data dan garis tersebut.
- Jarak ini disebut sebagai error atau kesalahan.
- Total error dihitung sebagai jumlah jarak dari semua titik data ke garis.
- Semakin kecil error, semakin baik model tersebut.
Error
Error